iT邦幫忙

2022 iThome 鐵人賽

DAY 6
0
Software Development

如果可以,我想用30天的時間打造一間抵霸閣系列 第 6

[Day6]抵霸閣-大數據下的ETL工具

  • 分享至 

  • xImage
  •  

由於ETL算是我主要的工作內容之一
且在大數據的時代下ETL也是個非常實用的工具
因此今天來稍微介紹什麼是ETL
首先簡單名詞解釋為
Extract(萃取):將雜亂的資料來源提取自己所需要的部分
Transform(轉置):將不完整或者重複的資料甚至是錯誤的數據做適當地清理,像是統一資料的標準
Load(載入):將處理完的資料寫進資料庫
以上的解釋有點兒抽象
大致上可以理解成為了讓資料可以被更有效率地使用
因此需要透過ETL這項工具幫忙將凌亂的數據整理成有用的資訊
而當設計好ETL的架構後便可以透過排程轉檔來自動化整個資料清洗的流程
便於減少例行性工作的人力

不過其中需要特別注意的是由於在資料清洗這個步驟非常繁瑣
就像是統計中遇到離群值的時候會很頭痛
若是此筆資料是真實且正常的數據時 不可任意刪除
但卻又大幅影響結果時
就必須花時間去確認各種有問題的資料(尤其通常資料量十分龐大
還有像是某些重要的欄位資料卻遺漏了
那也需要做判斷有什麼方法可以填補
或是該如何處理
這個部分又是一門學問了...


上一篇
[Day5]抵霸閣-SQL是什麼?可以吃嗎
下一篇
[Day7]抵霸閣-你的電腦一定有的神奇黑色小視窗
系列文
如果可以,我想用30天的時間打造一間抵霸閣30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言